Claude Fable 5 被越狱！12万内部系统提示词泄露到 GitHub_AI资讯

Anthropic旗舰新模型 Claude Fable 5 发布仅数天，其核心安全系统就被知名越狱研究者 elder_plinius（“解放者普林尼”）全面攻破，完整内部系统提示词已公开至 GitHub。

据 Plinius 披露，Fable 5 内部系统提示词长度约12万字符，直接暴露了 Anthropic 的安全逻辑构造。

Anthropic 在发布前 reportedly 投入超过1000小时，由顶级红队和赏金猎人进行严苛测试。官方定位 Fable 5 为迄今最强、最安全、适合软件工程与知识工作的 Mythos 级模型。其安全设计采用“双模型”架构：核心是强大前沿模型，外围包裹复杂的安全分类器。一旦检测到高风险请求（如漏洞利用、危险化学、心理操纵等），系统会无缝切换至更保守的后备模型 Claude Opus 4.8。

Claude Fable 5 被越狱！12万内部系统提示词泄露到 GitHub

然而，Plinius 仅用24小时就突破了这一机制。他并未依赖单一“神奇提示词”，而是采用高度工程化的“群狼战术”：部署多智能体协同攻击系统。

攻击手法包括：

多智能体协作（测试、分析、迭代重写）；
长上下文操控（先建立学术化合规对话，再逐步引导）；
语义拆解与重组（将危险流程拆成无害知识点，再拼接）；
字符混淆（混合拉丁与西里尔同形字符，绕过分类器模式识别）。

此事件显示，当前 AI 安全系统正面临来自 AI 自身驱动的动态、自动化、迭代式攻击。传统静态分类和后备切换机制在面对协同智能体攻击时显得脆弱。

完整系统提示词已在 GitHub 公开（elder-plinius/CL4R1T4S），Anthropic 的安全内幕被彻底暴露。

Claude Fable 5 被越狱！12万内部系统提示词泄露到 GitHub

相关推荐